深度加强学习(DRL)在跨不同领域的序列决策任务中取得了显着的成功,但其对黑盒神经体系结构的依赖阻碍了可相互可预性,信任和在高风险应用程序中的部署。可解释的深度强化学习(XRL)通过通过特征级别,州级,数据集级别和模型级解释技术来实现透明度来解决这些挑战。本调查提供了对XRL方法的全面审查,评估了其质量和定量评估框架,并探讨了它们在政策改造,副本的鲁棒性和安全性中的作用。此外,我们研究了通过从人类反馈(RLHF)学习的强化学习的大语模型(LLM)的增强学习的整合,从而优化了AI与人类偏好的一致性。我们通过高照明开放研究挑战和未来的指导来结束,以促进可解释,可靠和负责任的DRL系统的发展。
主要关键词